现象级国产AI作画“盗梦师”背后,西湖心辰蓝振忠:模型开源趋势下,初创公司最大的机会在于产品的商业化落地
东西精品沙龙系列
本期AIGC与生产力
上期分享
跨界艺术家朱浚侨
点击文末可阅读
2022年下半年以来,NLP技术与深度学习模型的完善、多个大模型开源并探索商业化可能,正在加速AIGC与产业结合,更大规模地落地业务与应用场景。这有望推动AIGC从辅助内容创作,向覆盖文本、绘画、音频、视频、游戏、创意营销、数字人、虚拟直播等多个行业的生产力工具转变,并产生价值增量。
在这一背景下,日前东西文娱&东西游戏联合东方财富证券研究所,举行“AIGC与生产力”系列会议,主要探讨AIGC的应用场景与产业化落地方向。下为现场纪要摘要。
西湖心辰创始人蓝振忠
AIGC的技术背景:自监督学习促使大模型发展、模型开源带来机会
我就从AIGC的技术背景讲起吧。AIGC主要依赖的就是2018年以来的自监督学习的发展。自监督学习,顾名思义就是它不需要特别多的监督数据就可以学得比较好的一个技术。相比监督学习来说,它需要的标注数据会少很多,所以我们可以用网上大量的数据来把模型做得特别大,模型的泛化能力也会强很多。
所以2018年以来我们看到大模型在急速膨胀。这里有一个统计,现在每18个月模型在以340倍这样的一个速度增长。这也使得我们现在能够去比较好地去做AIGC。
然后就是开源模型,大模型开源之后,大家都在往前去push它的发展。最近由于像Stable Diffusion这些模型的开源,大家正在讨论的一个问题就是:既然模型开源了,那么作为创业公司还可以做什么?
模型开源趋势下,
创业公司如何建立壁垒
就我观察,现在主要分为三层。第一层是基础模型的研究,比如说像OpenAI、Google、Meta在做的一些事情。他们凭借非常丰富的资金和人才的优势,可以去做一些颠覆性的创新,这类创新需要很大的资金量支持。虽然现在OpenAI估值还是比较高的,但是我认为它其实不是一个特别好的创业方向,很大程度在于技术的突破是非常难的,而且有很大的随机性。但是一旦突破了,去复现其实是比较容易的。比如说像DALL-E,OpenAI肯定付出了很大的努力去推动DALL-E的发展,但是Stable Diffusion就可以说是在DALL-E基础上进行了一些改进,而当Stable Diffusion开源之后,DALL-E前面的优势就荡然无存了,所以这是一个风险很高、同时也很难形成壁垒的方向。
在中间层这一块是改进模型的。它不止是去微调模型,而是复现现有的很多论文,作出改进,这对很多行业应用都是很有利的。这方面也是需要人才的,但相对于第一层人才要求没有那么高,产业化落地也要更快一些。
第三层就是直接去做商业化应用的,像Jasper那样的模式,专心在做产品运营和市场推广方面,可以快速去做商业化。但是它还有一个难点就是核心模型是在别人手上的,所以你比较难去根据用户的反馈去做更好的模型层面上的更新。所以现在 Jasper其实也是在不断的提升自己的模型优化能力。
所以总结下来这三层的话,AIGC最大的机会还是在于产品的商业化落地,只有有了自己的产品,才能够收集用户的数据,才能去打通优化的最后一公里。当然优化不只是微调,其实最好的话还是要有模型的改动能力。所以说,最好的产业化落地还是在最上层和中间层这两块。
基于此,我们在AIGC方面也做了两款应用,第一款叫HeyFriday,是我们文本生成能力的体现,给一个标题或者关键词,就能够生成一篇比较长的文章。目前中英文版本都有,英文版本对标Jasper。
在文生图这块我们有一款产品叫盗梦师,目前在速度上来说是最快的,在图片的生成质量和完整度来说也是不错的。
AIGC的商业化格局:头部产品出现、B端/C端的差异及机会
从现在AIGC的整个商业化格局上来说,可以看到在用户量上,Jasper和copy.ai是差不多的,每月访问量都还蛮多的。
从收入层面来说,Jasper会比copy.ai高很多。一个是它的单价高,然后它的广告投放收入也是会高很多。
这一块现在已经出现头部(产品)了,所以后面其实像我们这样的产品就要去打差异化,现在也能够看到一些差异化的机会,否则的话其实是比较难的,即使我们的价格成本会低很多。所以时机非常重要,对于to C的商业化来说。
然后现在to B端的话还是有很大的机会。B端的要求会高很多很多,现在的文章生成出来,还要改动很多,如果要生成一些非常creative的文章的话,其实还是有很大的难度的。所以 B端还是有比较多的机会,可以去很好地打磨的。
C端来说,它现阶段的壁垒主要来自用户沉淀这一块。因为人跟模型的交互其实是需要人来写一个instruction的,如果instruction写得不好也很难生成好的文章,所以用户沉淀下来的这些instruction是可以形成很好的护城河的。
图片这一块的to C属性和引流能力其实会强很多,我们可以看到,像Midjourney这种基本上一两个月内就能做到上千万的访问量,所以量会大很多。图片更直观、传播性也更强一些,所以它to C属性更强一些,但同时它的用户留存难度也会更大,所以如果想要持续做留存,还是需要一定时间积累的。这一块其实也是能够形成很强的沉淀的,沉淀同样也来自于如何跟机器去交互。
它从B端来说,在B端工作的时候可以看到有各种各样的数据,这些数据如果形成独立的模型的话,应该会形成比较强的壁垒。
这是从文字和图片两方面做了一个简单的分析。整体来说还是要走得很快,因为技术迭代非常快,然后就是到行业当中去做一些更个性化的应用。